[摘譯]
隨著「資料科學」日漸熱門,網路上也出現了很多的資料科學的相關課程,Mirko Krivanek 建議,有些課程其實並無助於對「資料科學」的理解或熟練,應該避免在這些課程上花時間。
作者舉了一些「偽資料科學」的例子,像是標榜:
- 學習 R 入門,資料操弄和視覺化,建立資料科學的基礎知識。
- 撰寫你的第一個 R 程式,學習 vectors, matrices, data frames 和 lists。(這些是 R 的資料結構,故不另作翻譯)
- 資料科學的七門課: t 檢定、變異數分析、迴歸以及其他(共26小時)。
這些「偽資料科學」課程通常是包裝過的傳統基礎統計學,對於「資料科學」來說雖然是必要基礎,但其實不必花太多時間去理解細節。雖然目前「資料科學」有很多種詮釋,但是資料科學用到的很多統計理論,在過去十年間都曾經翻修過,甚至很多理論還為了處理「大量」資料而重新定義過。如果要接觸新一代的理論基礎,作者推薦 Vincent Granville 的新書 Data Science 2.0,或是 Data Science Research Lab 上的資源。
另外,作者認為現代的資料科學也不太需要「線性代數」,所以如果你在課程介紹裡看到「矩陣」,那也是個應該跳過這門課的信號。
很多統計學者宣稱,資料科學家作的事情,本質上就是統計學,但是作者認為解決問題的方法很多,資料科學只是對有些問題的解決方案和統計學家相同而已。大多數的時候,資料科學家尋求的是直覺、簡單,讓工程師和商業人事容易理解的解決方案,而不是列出一百種模型讓別人選擇。
資料科學的解決方案,會把對複雜度的追求放在實際執行需要的領域專業知識上,放在如何選擇正確的衡量標準上,並且強調資料架構(以及收集過程)的設計上。
[譯按]
這篇簡單的說,就是作者建議避免去上「包裝成資料科學的傳統統計課程」,姑且不論字裡行間透露出作者跟統計學家的往日恩怨,個人覺得作者想強調的是,即便統計學是資料科學的根源,但是資料科學是更「對其它領域友善」的:方便工程師整合進系統,也方便商務人事理解背後的概念。
不過就像作者指出的,目前「資料科學」有很多種詮釋,所以不妨當做一種觀點來參考。
沒有留言:
張貼留言